We introduce Patch Aligned Contrastive Learning (PACL), a modified compatibility function for CLIP's contrastive loss, intending to train an alignment between the patch tokens of the vision encoder and the CLS token of the text encoder. With such an alignment, a model can identify regions of an image corresponding to a given text input, and therefore transfer seamlessly to the task of open vocabulary semantic segmentation without requiring any segmentation annotations during training. Using pre-trained CLIP encoders with PACL, we are able to set the state-of-the-art on the task of open vocabulary zero-shot segmentation on 4 different segmentation benchmarks: Pascal VOC, Pascal Context, COCO Stuff and ADE20K. Furthermore, we show that PACL is also applicable to image-level predictions and when used with a CLIP backbone, provides a general improvement in zero-shot classification accuracy compared to CLIP, across a suite of 12 image classification datasets.
translated by 谷歌翻译
在图像分类中,在检测分布(OOD)数据时发生了许多发展。但是,大多数OOD检测方法是在一组标准数据集上评估的,该数据集与培训数据任意不同。没有明确的定义``好的''ood数据集。此外,最先进的OOD检测方法已经在这些标准基准上取得了几乎完美的结果。在本文中,我们定义了2类OOD数据使用与分布(ID)数据的感知/视觉和语义相似性的微妙概念。我们将附近的OOD样本定义为感知上相似但语义上与ID样本的不同,并将样本转移为视觉上不同但在语义上与ID相似的点数据。然后,我们提出了一个基于GAN的框架,用于从这两个类别中生成OOD样品,给定一个ID数据集。通过有关MNIST,CIFAR-10/100和Imagenet的广泛实验,我们表明A)在常规基准上表现出色的ART OOD检测方法对我们提出的基准测试的稳健性明显较小。 N基准测试,反之亦然,因此表明甚至可能不需要单独的OOD集来可靠地评估OOD检测中的性能。
translated by 谷歌翻译
我们介绍了几个弹出的对象学习(LITESOL)数据集,以供对象识别,每个对象有几个图像。我们从不同的视图中捕获了336个现实世界对象,每个对象有9个RGB-D图像。提供对象分割掩码,对象姿势和对象属性。此外,使用330 3D对象模型生成的合成图像用于增强数据集。我们研究了(i)使用我们的数据集的最先进的方法和最新方法,研究了(ii)(ii)使用最先进的方法和元学习的最先进方法的联合对象分割和几乎没有射击分类。评估结果表明,在机器人环境中,对于几个射击对象分类,仍有很大的边距可以改善。我们的数据集可用于研究一组几个弹出的对象识别问题,例如分类,检测和分割,形状重建,姿势估计,关键点对应关系和属性识别。该数据集和代码可在https://irvlutd.github.io/fewsol上找到。
translated by 谷歌翻译
关键酶生成旨在生成最能描述给定文档的短语(关键程令)。在学术领域中,目前对这项任务的方法是神经方法,并且在很大程度上仅仅用文章的标题和摘要工作。在这项工作中,我们探讨了从语义相似的文章或给定文章的完整文章中额外数据的集成是否有助于神经关键关键关键基本生成模型。我们发现,特别是以文章摘要的形式添加了完整文本的句子,可以显着改善来自标题和摘要的存在或缺席的两种类型的关键效果的生成。在三个广泛的型号上的实验结果以及适合较长文档的最新变压器模型之一,龙绿者编码器 - 解码器(LED)验证了观察。我们还提供了一个新的大型学术数据集Fulltextkp,用于关键斑点生成,我们用于我们的实验。与现有大规模数据集不同,FullTextkp包括与标题和摘要的文章的完整文本。我们将发布源代码以激发拟议想法的研究。
translated by 谷歌翻译
关键级生成是生成短语(关键词)的任务,该任务总结了给定文档的主要主题。生成的kephrass可以从给定文档的文本存在或不存在。虽然目前的关键术后的提取在过去受到了很多关注的时候,但最近只有更强大的重点是在不存在的关键时代的产生上。但是,生成缺席的关键酶非常具有挑战性;即使是最好的方法也只显示了适度的成功程度。在本文中,我们提出了一种叫做关键症辍学(或KPDROP)的方法,以改善缺乏关键酶生成。我们随机删除文件中的关键短脉冲,并在培训期间将它们变为人为缺席的关键。我们广泛地测试了我们的方法,并表明它一直提高关键正版生成中强基线的不存在性能。
translated by 谷歌翻译